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交互 式 语音 识别 系统 研究 


李 新 辉 王 四 东 钱 跃 恨 林 守 勋 
摘要 : 为 了 实现 大 词汇 量 连续 语音 识别 技术 的 实际 应 用 ， 本 文 提出 了 交互 式 语音 识别 的 概念 并 着 重 研究 民 
中 的 各 项 关键 技术 。 所 谓 的 交互 式 语音 识别 ， 是 指 为 语音 识别 系统 配置 一 位 操作 员 ， 该 操作 员 在 语音 识别 
过 程 中 对 识别 系统 进行 指导 监督 并 修正 识别 结果 。 同 时 ， 识 别 系 统 对 交互 信息 ; 操 | 
导 信 息 和 修正 信息 对 内 部 模型 进行 自 适 应 调整 ， 从 而 提高 系统 的 识别 性 能 。 本 文 的 研究 工作 是 对 当前 大 词 
汇 量 连 续 语 音 识别 技术 实际 应 用 的 发 展 和 创新 ， 具 有 重要 科学 技术 意义 和 产业 应 用 前 景 。 同 时 ， 对 语音 识 
别 在 其 他 方向 〈 如 实时 字幕 生成 ， 图 书馆 音频 资料 整理 等 ) 的 应 用 具有 实际 的 借鉴 作用 。 
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交互 式 语音 识别 语音 语句 提取 汉语 候选 生成 交互 式 声学 模型 自 适 应 


语音 是 人 类 最 自然 、 最 重要 的 交流 方式 由。 因此 ， 在 计算 机 相关 技术 中 ， 自 动 语音 识别 
作为 一 种 自然 、 高 效 的 人 机 交互 方式 ， 长 期 受到 各 国政 府 和 研究 者 的 高 度 关 注 。 近 年 来 ， 语 
音 识 别 技术 取得 了 长 足 的 进展 。 面 向 特殊 应 用 的 中 小 词汇 量 语音 识别 技术 已 经 比较 成 熟 马 3， 
产生 了 诸如 手机 语音 拨号 系统 、 电 话 查 询 系统 等 实际 应 用 系统 。 然 而 ， 由 于 受到 背景 噪音 、 
方言 口音 、 口 语 化 的 自然 语音 以 及 语义 理解 等 因素 的 限制 , 大 词汇 量 连续 语音 识别 的 研究 仍 
然 停留 在 实验 室 阶段 , 面向 真实 场景 的 大 词汇 量 连续 自动 语音 识别 系统 性 能 远 远 无 法 满足 实 
际 应 用 要 求 。 


在 已 有 的 语音 识别 技术 相关 研究 中 ， 虽 然 尚 没有 明确 提出 交互 式 语 音 识 别 的 概念 ， 但 已 
有 一 些 在 语音 识别 过 程 中 引入 交互 的 研究 工作 。 早 期 研究 的 代表 单位 是 美国 IBM 公司 、 卡 
内 基 - 梅 隆 大 学 “CMU)、 密 葡 根 大 学 (University of Michigan) 等 。 其 研究 主要 集中 于 语音 
识别 的 错误 纠正 技术 , 即 在 一 句 话 识别 后 由 说 话 人 对 识别 结果 的 错误 进行 纠正 。 系 统 可 同时 
提供 多 通道 的 交互 方式 , 包括 单词 重新 发 音 (re-speaking)、 单词 拼写 (spelling)、 键盘 输 入 、 
手写 输入 、 笔 形 设备 点 击 、 拖 动 输入 、 从 前 N 个 候选 〈N-best〉 中 选择 等 "1 。 近 期 研究 的 
代表 性 工作 是 日 本 国立 高 等 工业 科技 研究 院 (AIST, National Institute of Advanced Industrial 
Science and Technology) 的 “音声 订正 ”(speech repair) 系统 四 。 该 系统 对 每 个 单词 给 出 多 
个 候选 , 并 提供 相应 的 交互 界面 ,允许 用 户 在 语音 输入 的 同时 或 完成 之 后 通过 选择 候选 修正 
语音 识别 结果 。 该 研究 主要 针对 无 噪声 的 朗读 语音 ， 可 以 达到 实时 应 用 ， 修 正 后 正确 率 达 
969% 以 上 。 但 该 系统 只 提供 用 户 选择 界面 ， 没 有 其 它 交 互 功能 ， 也 没有 利用 用 户 修正 信息 进 
行 模型 自 适应 ， 在 会 议 场景 等 真实 自然 语音 的 情况 下 性 能 将 有 较 大 下 降 。 总 的 来 说 ， 交 互 式 
语音 识别 的 相关 研究 较 少 ,而 且 多 数 集 中 在 对 结果 的 修正 上 ,缺乏 利用 多 种 交互 手段 ， 以 及 
利用 交互 信息 进行 声学 模型 自 适 应 的 研究 。 


为 了 将 大 词汇 量 连续 语音 识别 技术 推 向 实际 应 用 ， 本 文 提出 了 交互 式 语音 识别 的 概念 ， 
研究 交互 式 语音 识别 中 的 关键 技术 , 并 构造 了 一 个 完整 的 系统 。 本 文 所 谓 的 交互 式 语音 识别 ， 
是 指 : 为 语音 识别 系统 配置 一 位 操作 员 , 在 语音 识别 过 程 中 由 其 与 系统 进行 交互 。 其 交互 方 
式 主要 分 为 两 类 : 一 是 根据 先 验 知识 或 当前 说 话 人 语音 的 特点 对 系统 进行 适当 的 指导 , 例如 
指示 说 话 人 切换 、 主 题 切换 ， 指 出 说 话 人 性 别 、 方 言 口音 类 型 ， 甚 至 将 部 分 先 验 语 料 输入 系 
统 等 ; 二 是 根据 听觉 对 当前 语音 识别 结果 进行 人 工 修正 。 考 虑 到 效率 和 交互 的 友好 性 ， 这 类 
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交互 主要 采用 候选 选择 的 方式 ， 即 对 一 名 话 进行 识别 后 ， 为 其 中 的 每 个 字 提 供 多 个 候选 。 当 


第 一 候选 不 是 正确 结果 时 , 操作 员 可 以 在 其 它 候选 中 进行 选择 或 输入 正确 的 内 容 来 纠正 识别 
错误 。 在 交互 式 语音 识别 中 ， 系 统 不 仅 可 以 通过 操作 员 的 快速 修正 来 修正 识别 错误 ， 而 且 可 
操作 员 的 指导 信息 和 交互 信息 对 内 部 模型 进行 选择 和 自 适 应 。 这 样 模型 更 加 接近 当前 
说 话 人 的 发 音 特点 和 语音 内 容 , 系统 输出 的 候选 越 来 越 准 确 , 操作 员 的 修正 效率 也 越 来 越 高 ， 


以 根据 


从 而 满 


足 实际 的 应 用 需求 。 


本 文 提出 的 交互 式 语 


音 识别 系统 的 流程 如 图 1 
所 示 。 在 识别 开始 前 , 操作 


员 向 系统 输入 待 识别 对 象 


的 信息 


和 谈论 主题 信息 , 系 


统 根 据 操作 员 的 指导 信息 
选择 最 匹配 的 声学 模型 和 


语言 模 


中 ,语音 经 语句 提取 模块 处 
理 后 送 语 音 识别 模块 识别 


并 生成 
生成 模 


型 ,在 语音 识别 过 程 


识别 中 间 结 果 。 候 选 
块 对 识别 中 间 结 果 


Er Ee 


自 适 应 


图 1. 交互 式 语音 识别 流程 图 


进行 处 理 后 生成 候选 。 操 作 员 通 过 选择 候选 或 终端 输入 来 修正 识别 错误 。 同时， 系统 利用 提 
语音 语句 和 对 应 的 修正 后 文本 对 声学 模型 和 语言 模型 进行 自 适 应 调整 。 


取 到 的 


自 适应 


交互 式 语音 识别 系统 主要 包括 声学 模型 、 语 言 模型 两 个 核心 模型 和 语句 提取 、 识别 引擎、 


和 候选 生成 四 个 核心 模块 。 在 本 文 的 研究 中 ， 采 用 了 目前 世界 上 较 先进 的 开源 HTK 
语音 识别 引 敬 中 ,该 引擎 融合 了 目前 主流 的 语音 识别 解码 技术 。 由 于 生成 候选 的 质量 好 坏 决 
定 了 操作 员 在 整个 识别 过 程 中 的 工作 效率 , 同时 也 决定 了 交互 式 语音 识别 是 否 能 够 满足 实际 


应 用 的 需求 ， 本 文 将 研究 重点 聚焦 于 如 何 实时 地 生成 高 质量 的 候选 。 


2 ”语音 语句 提取 


在 语音 识别 中 , 为 得 到 好 的 结果 


要 预 


点 检测 


常 是 对 一 整 句 话 识别 完 之 后 输出 麦克 风 ”音频 文件 ~、_ 同 十 下 而 


因此 ， 在 对 一 段 语音 识别 时 


先 提取 该 段 语音 中 的 语句 ， < 集 rm en | 


然后 再 进行 识别 。 目 前 主要 采用 端 
的 方法 来 提取 语音 语 
点 检测 技术 是 指 从 包含 语音 的 一 段 


言 号 中 


句 提取 不 仅 能 减少 系统 的 处 理 时 
间 、 提 高 系统 处 理 的 实时 性 ， 而 且 


确定 出 语音 的 起 始点 和 结束 
点 。 在 语音 识别 中 ， 有 效 的 语音 语 


句 。 端 


能 排除 无 声 段 的 噪音 干扰 ， 从 而 使 图 2. 交互 式 语音 识别 中 语音 语句 提取 流程 图 

后 续 的 识别 性 能 得 以 较 大 提高 。 

在 交互 式 语音 识别 中 ， 识 别 对 象 的 语音 输入 既 可 以 是 事先 录 好 的 音频 文件 ， 又 可 以 是 实 
时 的 语音 , 语音 语句 提取 模块 在 这 两 种 


~ 


青 况 下 都 应 该 能 够 提取 出 语音 语句 。 图 2 为 交互 式 语 
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音 识别 中 的 语音 语句 提取 流程 图 。 


在 交互 式 语 音 识别 系统 中 ， 对 于 音频 文件 输入 ， 系 统 直 接 采 用 端点 检测 方法 对 音频 文件 
进行 端点 检测 提取 所 有 的 语音 语句 ; 对 于 实时 的 语音 输入 ,系统 实时 地 采集 说 话 人 语音 ,3 
对 采集 到 的 语音 进行 端点 检测 提取 语音 语句 。 为 了 在 后 一 种 情况 下 能 够 实时 地 提取 语音 语 
句 ， 本 文采 用 分 段 采 集 和 缓冲 池 的 方法 ， 即 每 采集 一 段 回 定 长 的 音频 就 把 它 放 到 缓冲 池 中 ， 
同时 只 要 缓冲 池 不 为 空 就 从 缓存 池 中 拿 出 一 段 音 频 进 行 端点 检测 , 音频 采集 与 端点 检测 以 同 
步 的 方式 访问 缓冲 池 。 这 种 方法 中 ,音频 固定 长 度 的 选取 是 关键 问题 长 度 过 长 使 得 端点 检 
测 等 等 时 间 过 长 而 影响 实时 性 ,长度 过 短 会 产生 许多 无 用 检测 , 从 而 降低 系统 资源 的 利用 率 。 
本 文 设 定 的 长 度 值 为 3 秒 ， 因 为 根据 实验 统计 ， 大 多 数 情 况 下 ， 一 句 话 都 在 3 秒 钟 内 。 


3 ”汉语 候选 生成 


在 交互 式 语音 识别 中 ,候选 生 成 方法 直接 决定 了 所 生成 的 候选 的 质量 ， 而 候选 的 质量 好 

坏 决定 了 操作 员 在 整个 识别 过 程 的 工作 量 和 工作 效率 。 在 国外 ,主要 采用 混淆 网 络 生成 候选 

一 的 方法 ， 即 利用 混淆 网 络 算法 (confusion network) 0 将 词 网 格 压缩 成 混淆 网 络 来 得 到 候 

选 。 使 用 该 方法 生成 候选 必须 满足 词 网 格 中 每 条 弧 对 应 的 对 象 为 一 个 单独 的 不 可 再 分 割 的 

词 。 在 英语 词 网 格 中 每 条 弧 对 应 的 词 为 一 个 单独 的 英语 单词 , 因此 利用 该 方法 可 以 生成 合适 

的 英语 候选 。 然而 ,在 汉语 词 网 格 中 每 条 弧 对 应 的 词 由 一 个 或 多 个 汉语 字 组 成 , 每 个 词 可 能 

二 拆 分 为 两 个 以 上 的 字 如 “中 国 ”， 可 拆 分 为 “中 ”和 “ 国 ”)， 因 此 不 能 利用 该 方法 来 生成 
合适 的 汉语 候选 。 


< 通过 分 析 交 互 式 语音 识别 系统 中 的 需求 ,我 们 认为 交互 式 语音 识 另 
满足 以 下 三 个 约 东 条件 : 


(1) 具有 竞争 关系 的 候选 应 该 属于 同一 候选 列 中 。 这 使 得 操作 员 只 需要 在 一 个 候选 列 
中 查找 正确 的 候选 。 


(2) 所 有 候选 列 应 该 按照 识别 时 

间 的 先后 顺序 排列 ， 从 而 使 用 户 能 够 
一 按照 识别 顺序 从 前 往 后 遍历 一 次 就 能 
rz 够 修正 所 有 识别 错误 。 


(3) 在 每 个 候选 列 中 ， 所 有 候选 
应 该 按照 识别 过 程 中 的 得 分 从 高 到 低 
排列 。 得 分 越 高 说 明 该 候选 为 正确 词 
的 可 能 性 越 大 ， 操 作 员 目 上 而 下 查找 
候选 时 越 容易 看 到 。 


3.1 基于 字 的 汉语 候选 生成 方法 


为 了 生成 高 质量 的 汉语 候选 ， 按 
照 上 述 提出 的 汉语 候选 生成 约束 条 


ds. 
| 


的 汉语 候选 生成 应 


件 ， 我 们 提出 了 一 种 基于 字 的 汉语 候 (b) 切 分 生成 基于 字 的 候选 


选 生成 方法 Da。 在 该 方法 中 ,首先 使 wa。 
妈 3. 基于 字 的 汉语 候选 生成 方法 示意 图 
汉语 词 网 格 对 齐 ， 生 成 对 齐 网 络 ， 然 WO 
后 在 对 齐 网 络 的 基础 上 将 词 按 字 切 分 生成 候选 。 图 3 为 基于 字 的 汉语 候选 生成 示意 图 。 图 
3() 为 汉语 词 网 格 对 齐 生成 对 齐 网 络 ， 图 3(b) 为 对 齐 网 络 按 字 切 分 生成 基于 字 的 候选 。 在 本 
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文中 ， 我 们 分 两 部 分 对 该 方法 进行 算法 描述 ， 一 部 分 为 词 网 格 对 齐 ， 一 部 分 为 字 候选 生成 。 
在 对 算法 描述 之 前 ， 我 们 先 给 出 一 些 定义 : 


(1) ”汉语 词 网 格 


一 个 汉语 词 网 格 由 工 =< N, 正 > 来 表示 ， 其 中 N ={no,n,n,…,n,} 为 汉语 词 网 格 中 所 有 
结 点 的 集合 ，EE ={e,,e,,e,,…,ey} 为 汉语 词 网 格 中 所 有 弧 的 集合 。 


Yn; e N ，t(n) 表示 结 点 对 应 的 时 间 。 Ve s 五 ， 都 用 一 个 五 元 组 
人 


来 表示 ， 其 中 Se 表示 弧 ex 的 起 始 结 点 ，Fe 表示 弧 ei 的 结束 结 点 ，We 表示 弧 e@ 上 的 汉语 
词 ， 4。 表示 弧 e 的 声学 概率 得 分 ，L6, 表示 弧 e 的 语言 概率 得 分 。 


(2) ”对 齐 网 络 


一 个 对 齐 网 络 由 五 ={E/,E/,E;,…E'} 来 表示 ， 其 中 E, 为 对 齐 网 络 中 所 有 对 齐 类 的 集 
合 ，E! 表示 第 k 个 对 齐 位 置 上 的 弧 集 合 。 


(3) ”汉字 候选 


一 个 汉字 候选 由 C={Ci,C!l,C;,…,C;} 来 表示 ，C 为 候选 中 所 有 候选 列 的 集合 ， 
CG) = {co,C,C,,…,Ck} 表示 第 1 个 候选 列 上 所 有 候选 集合 ，vc e CI! 都 用 一 个 二 元 组 {Wi,P,} 
表示 ， 其 中 W 表示 候选 c 对 应 的 候选 词 ，P 表示 候选 cc 对 应 的 得 分 。 


3.1.1 对 齐 网 络 的 生成 


我 们 可 以 通过 对 汉语 词 网 格 中 的 弧 进 行 聚 类 将 汉语 词 网 格 对 齐 ， 形 成 对 齐 网 络 。 聚 为 一 
类 的 弧 应 满足 以 下 两 个 条 件 :(1) 每 条 弧 对 应 词 假设 的 最 后 一 个 汉字 存在 语音 相似 。(2) 弧 
之 间 存 在 时 间 重 胎 。 


以 下 为 对 齐 网 络 生 成 算法 的 描述 : 
步骤 1: ”利用 前 后 向 算法 "计算 词 网 格 中 每 条 弧 e 的 后 验 概率 p(e) 。 


步骤 2: ”将 弧 集合 E 中 的 所 有 的 弧 ， 按 弧 的 结束 时 间 t(F6。 ) 递增 排序 ， 对 于 结束 时 
间 相等 的 弧 ， 按 弧 的 开始 时 间 t(S6 ) 递增 排序 。 


步骤 3: ”初始 化 Ei;=null， 对 于 E 中 的 弧 e， 如 果 t(S6)=0， 则 Es= EUe。 
步骤 4: ”对 于 EE 中 的 每 条 弧 e,，i=0,1…,J ， 假 设 ei je El: 


(a) 若 t(S6)=t(S6,) HF )=tF, ), NE’;=E'Ue,. 


(b) 若 3ee El， 使 得 t(S。)=t(F,), 则 E', =E',Ue,。 


3ee E;, 若 SIM(e,e;)< SIM(e,ej;), WE’,= EUe, E;=E'\e。 


其 中 SIM (e,e')= sim(c(e),c(e”))xoverlap(e,e') 用 于 计算 两 条 弧 之 间 的 竞 


使 用 最 合适 的 语音 基本 公式 计算 得 到 的 两 个 汉字 的 声学 相似 性 , overlap(e,e'") 
为 平滑 后 的 弧 e 和 e' 的 时 间 重 登 程度 。 
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(c) 若 3eje 了 HK 且 天 < 工 使 得 t(Su)=tFo) 且 


wintule )}=u(ei) ， 


1=K+1e 


则 E;=E;Ue,。 其 中 u(e) 表示 弧 e 对 应 汉语 词 所 包含 的 汉字 个 数 。 


(d) 若 3ejeExk 有 是 K<I， 使 得 t(S6)=t(Fe) 且 


六 min{u(e )}< ule,), 


l=K+1e'e 


则 Ei =Eriu,Ue, 


(e) 若 3ejsEk 且 天 < 工 使 得 t(S。 才 二 信 ) 且 


六 mip{u(e’ )}> ule;), 


l=K+1le 


则 Es =EsUe，K<H<I， 其 中 H 通 过 以 下 公式 确定 : 


H =arg max{ > SIM (e',e;)}, 


了 
K<H<I W(Ep)eeEs 


其 中 w(E;) 为 E; 中 所 包含 的 弧 数 ，SIM (e,e”) 与 上 述 定义 相同 。 


步骤 5: ”对 Ei 中 每 个 对 齐 类 ， 将 具有 相同 汉语 词 的 弧 合 并 成 一 条 弧 ， 其 概率 值 等 
于 合并 的 弧 的 后 验 概率 之 和 。 


3.1.2 字 候 选 生 成 


在 对 齐 网 路 的 基础 上 , 将 汉语 词 切 分 生成 字 候选 ,并 对 每 列 候 选 按照 概率 得 分 从 高 到 低 
排序 。 


以 下 为 字 候选 生成 算法 的 描述 : 


步骤 1: 令 n=0，m=0。 


步骤 2: 设 mnum =min{u(e)} ， 


u(e') 同 之 前 定义 是 一 致 的 ， 对 于 E' 中 的 所 有 弧 e! ，i=12,3…， 都 做 
如 下 处 理 : 


(a) 若 ue)=num ， 令 候选 c 的 候选 词 Wc;=Q(We',j) ， 候 选 概率 
P.,= P(e), Cm:j = Ue ， 了 = 0,1…,num 一 1， 其 中 Q(We', 门 表 
示 取 弧 e' 对 应 汉语 词 的 第 j 个 汉字 。 


(b) 若 ue)>num ， 令 候选 cj 的 候选 词 We;=Q(We',j) ， 候 选 概率 
P., — P(e') ? Cm jrnum_ule’) = Cm+j+num-— ul(e') Uc; ? j= 0,1,.…., ul(e')—1 7 
其 中 Q(We, 门 表示 取 弧 e' 对 应 汉语 词 的 第 了 个 汉字 。 


步骤 3: mn=n+l， 灵 =m+TPnumn ， 如 果 mn<w( 了 ) 回 到 步骤 2， 和 否则 结束 。 
步骤 4: ”对 Ck 中 对 应 相同 候选 词 的 候选 合并 为 一 个 候选 ， 其 概率 值 等 于 合并 的 候 
选 的 概率 之 和 ， 如 果 
> P<1, 


, 
ceCk 


令 候选 c' 的 候选 词 We = null ， 候 选 概 率 
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Pp,=1- TP., 


Ck =Ck Uc ， 对 合并 后 的 候选 按照 概率 值 从 大 到 小 排序 。 
3.2 实验 及 结果 分 析 


在 本 实验 中 , 我 们 对 自 录 的 278 句 测 试 语 料 进行 语音 识别 ,并 使 用 本 文 介绍 的 汉语 候选 
生成 方法 生成 候选 , 最 后 得 出 实验 结果 。 实 验 中 用 到 的 声学 模型 是 由 4 万 多 句 的 863 语 料 和 
7 万 多 句 的 北方 语 料 训练 得 到 的 , 语言 模型 是 由 600 多 兆 的 文本 语 料 训练 得 到 的 二 元 语言 模 
型 。 实 验 采 用 的 评价 标准 为 : 第 一 候选 〈1-Best) 准确 率 、 前 十 候选 〈10-Best) 覆盖 率 、 候 
选 平均 排名 、 候 选 见 余 度 ， 其 计算 公式 如 下 : 

1-Best 准确 率 =1-Best 结果 中 包含 正确 字 的 个 数 / 标准 答案 中 字 的 总 个 数 

10-Best 履 盖 率 = 前 10 个 候选 中 包含 正确 字 的 个 数 / 标准 答案 中 字 的 总 个 数 

候选 平均 排名 = 正确 字 在 候选 中 的 平均 位 置 

候选 见 余 度 = 排 在 正确 字 以 后 的 所 有 字 候 选 之 和 / 候选 总 个 数 
上 述评 价 标准 中 , 第 一 候选 准确 率 用 来 反映 语音 识别 本 身 的 识别 性 能 , 即 在 没有 生成 候选 的 
情况 下 , 语音 识别 的 正确 率 ; 前 十 候选 覆盖 率 用 来 反映 候选 中 包含 正确 词 的 个 数 ， 即 能 够 通 
过 选择 候选 来 修正 识别 错误 的 多 少 ; 候选 平均 排名 和 候选 见 余 度 是 站 在 操作 员 的 角度 对 候选 
质量 的 评价 。 候 选 平 均 排 名 越 靠 前 ， 候 选 见 余 度 越 低 ， 那 么 操作 员 查 找 正 确 词 的 速度 越 快 。 


表 1 为 采用 上 述评 价 标准 对 实验 生成 的 汉语 候选 进行 评价 得 到 的 实验 结 


表 1 ”汉语 候选 生成 实验 结果 
评价 指标 ” 1-Best 正确 率 10-Best 正确 率 候选 平均 排名 候选 元 余 度 
实验 结果 76.848% 92.468% 1.65772 77.331% 


从 表 1 可 以 看 出 , 使 用 本 文中 提出 的 汉语 候选 生成 方法 得 到 的 候选 可 以 修正 大 部 分 识别 
错误 。 如 在 本 实验 中 ， 生 成 后 的 汉语 候选 可 以 修正 多 于 15% 的 识别 错误 。 而 且 ， 从 候选 平 
均 排 名 来 看 ， 在 第 一 个 候选 和 第 二 个 候选 中 就 可 以 查找 到 大 多 数 正确 的 字 。 


4 ”交互 式 声 学 模型 自 适应 


在 交互 式 语 音 识别 中 ， 生 成 汉语 候选 的 质量 除了 受 候选 生成 方法 本 喘 的 影响 外 ， 还 受 自 
动 语音 识别 性 能 的 影响 。 在 本 文中 ,利用 操作 员 指 导 性 和 修正 性 的 交互 信息 ,提出 了 基于 口 
音 和 性 别 的 声学 模型 选择 方法 和 基于 交互 信息 的 有 监督 声学 模型 自 适应 方法 ,在 基于 口音 和 
性 别 的 声学 模型 选择 方法 中 , 可 根据 性 别 和 地 域 口音 事先 训练 多 个 声学 模型 ， 然 后 在 识别 开 
台 订 ， 根 据 操作 员 输 入 的 待 识别 对 象 信息 ， 为 每 个 说 话 人 选择 与 之 最 接近 的 声学 模型 。 基 于 
交互 信息 的 有 监督 声学 模型 自 适应 方法 利用 识别 过 程 中 已 修正 的 部 分 识别 结果 和 与 之 对 应 
的 说 话 人 语音 , 进行 有 监督 声学 模型 自 适应 。 实验 结果 表明 这 两 种 方法 都 能 够 提高 自动 语音 
识别 的 性 能 ， 进 而 提高 生成 候选 的 质量 。 


4.1 基于 口音 和 性 别 的 声学 模型 选择 


为 了 提高 语音 识别 的 性 能 ， 进 而 提高 生成 的 汉语 候选 的 质量 ， 在 交互 式 语音 识别 中 ， 利 
用 操作 员 对 系统 的 指导 性 ,本 文 提 出 了 基于 口音 和 性 别 的 声学 模型 选择 方法 。 在 该 方法 中 我 


-> 
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们 根据 口音 和 性 别 差异 训练 多 个 模型 , 并 在 识别 
不 同 地 域 的 人 对 同一 个 
的 。 如 在 湖南 地 
“fu”。 此 外 ， 男 女性 别 的 
同 。 与 男性 相 
调 通 常 都 较 高 ( 即 频 率 高 )。 因 
音 和 性 别 训练 多 


的 声学 模型 。 在 我 国 
字 的 发 音 可 能 是 不 
习惯 将 “hu” 念 成 
差异 也 会 造成 发 
性 的 声音 言 
本 文 根 据 地 域 


喇 


re 


三 


的 不 


信息 技术 快报 


Information Technology Letter 


区 人 们 


比 ， 女 
此 ， 
模 


个 声学 


型 ， 对 每 个 识别 对 象 根据 他 的 口音 和 性 别 先 
择 声 学 模型 ， 这 样 能 够 较 大 地 提高 语音 识别 


性 能 。 
择 流 程 图 。 


基于 口音 和 性 别 
要 分 为 以 下 几 步 : 


(1) 


根据 地 域 
门 对 本 认 


由 


音 和 性 别 对 


在 


我 


题 


声学 模型 (北方 男声 模型 、 


(2) 


信息 


(3) 实时 切换 


识别 ! 


的 声学 模型 选择 方法 主 


根据 口音 和 性 别 训练 多 


语音 语 


究 组 积累 的 北方 语 
I 普 通话 ) 按照 南北 方 地 域 和 男 


女性 别 进 
北方 女声 模型 、 


识别 前 选择 合适 声学 模型 


在 识别 开始 前 ， 操 作 员 输入 竺 识别 对 象 的 信息 主 
为 每 个 待 识别 对 象 选 择 合适 的 声学 模型 ， 并 玫 


图 4 为 基于 口音 和 性 别 的 声学 模型 选 


个 声学 


料 分 


模型 
类 ， 


bs 
vr 


日 / 半 


类 语 


对 每 


音 的 普通 话 ) 和 
并 对 分 类 后 的 语音 语 料 分 别 训练 得 到 四 个 
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音 语 料 训练 一 个 声学 模型 。 在 本 文中 


台 前 选择 加 载 与 待 识别 对 象 发 音 特点 相似 


-> 


声 模型 、 南 方 女声 模型 )。 


Gn 


女 


南方 语音 库 〈 带 南方 口音 


三 | 


是 地 域 口音 、 性 别 )， 系 统 根据 这 
F 局 相应 的 识别 服务 进程 。 


在 识别 过 程 中 ， 当 说 话 人 变化 时 ， 操 作 员 在 系统 中 标示 当前 说 话 人 ， 系 统 就 会 将 当前 说 


话 人 的 


语音 语 


到 名 送 到 与 之 对 应 的 识别 服务 进程 进行 识别 。 


4.2 基于 交互 信息 的 有 监督 声学 模型 自 适应 


在 交互 式 语音 识别 中 ， 系 统 对 每 句 
语音 识别 产生 的 识别 结果 都 会 经 过 操 


员 的 修正 。 因 此 , 在 交互 式 语 


Ba 


i 


识别 中 ， 


作 


利用 操作 员 修 正 性 的 交互 
出 了 基于 交互 信息 的 有 监 


LO 


适 
的 语音 和 对 应 的 已 修 


适 


言 息 ， 本 文 


担 
ye 


督 声学 模型 自 


应 方法 。 在 该 方法 中 ， 我 们 ; 


应 训练 语 料 ， 对 声学 模型 作 有 


科 


FE 识别 结果 作为 


识别 


已 ; 


监督 


适应 。 图 5 为 基于 交互 信息 有 


(1) 


适应 语 料 收 集 


在 识别 过 程 中 ,对 于 每 个 识别 对 象 我 们 都 为 其 收集 经 语音 语句 提取 后 的 说 话 i 


作 员 修 正 后 的 对 应 文本 信息 。 


1 


大 


IT 目 


上 过 吉 上 
过 声学 
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模型 自 适应 流程 图 。 


基于 交互 信息 的 声学 模型 自 适应 方法 主要 分 为 以 下 儿 


I 
AN 


洒 价 渍 


和 经 操 
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(2) 。 有 监督 声学 模型 自 适应 
大 


我 们 利用 收集 到 的 语音 语 料 和 对 应 的 文本 信息 ,为 每 个 识别 对 象 对 应 的 声学 模型 作 有 监 
督 声学 模型 自 适应 。 该 自 适 应 可 分 为 两 种 : 〈1) 在 线 自 适 应 ， 当 收集 到 的 任何 一 个 识别 对 象 
的 语音 语 料 超 过 一 定数 量 该 闵 值 以 句 为 单位 ， 可 设置 ) 时 ， 我 们 就 为 其 对 应 的 声学 模型 作 
有 监督 自 适应 ; (2) 离线 自 适 应 ， 在 整个 识别 结束 后 ， 我 们 为 每 个 识别 对 象 对 应 的 声学 模型 
作 有 监督 声学 模型 自 适 应 ， 自 适应 后 的 声学 模型 供 以 后 使 用 。 

(3) ”声学 模型 切换 

这 一 步 主 要 针对 上 文 所 说 的 在 线 自 适应 ,为 了 使 在 线 自 适应 后 的 声学 模型 能 够 快速 地 用 
于 后 续 的 语音 识别 , 提高 后 续 的 系统 识别 性 能 , 我 们 为 在 线 自 适应 后 的 声学 模型 开启 识别 服 
务 进程 ， 并 在 成 功 开启 之 后 关闭 自 适应 前 的 声学 模型 对 应 的 识别 服务 进程 。 
4.3 实验 及 结果 分 析 
4.3.1 声学 模型 选择 

为 了 验证 基于 口音 和 性 别 的 声学 模型 选择 方法 对 语音 识别 性 能 的 影响 以 及 对 生成 候选 
质量 的 影响 ,在 本 实验 中 ,预先 训练 了 六 个 声学 模型 。 分 别 是 北方 口音 男声 声学 模型 、 北 方 
音 女 声 声 学 模型 、 北 方 口音 混合 声学 模型 、 南 方 口音 男声 声学 模型 、 南 方 口音 女声 声学 模 
型 、 南 方 口音 混合 声学 模型 。 六 个 声学 模型 训练 语 料 的 大 小 都 统一 为 35750 句 ， 其 中 混合 模 
型 的 训练 语 料 中 男女 声 语 料 各 占 一 半 。 实 验 中 用 到 的 语言 模型 是 由 600 多 兆 的 文本 语 料 训练 


得 到 的 二 元 语言 模型 。 实 验 测试 语 料 为 北方 口音 278 句 男声 语 料 。 实 验 结果 如 表 2 所 示 。 


表 2 ”北方 男声 测试 语 料 模型 选择 实验 结果 


候选 见 余 度 


候选 平均 排名 


10-best 和 窗 盖 率 


1-best 正确 率 


北方 男声 模型 77.25% 89.35% 1.448 60.64% 
北方 女声 模型 57.39% 74.46% 2.135 36.96% 
北方 混合 模型 75.07% 88.40% 1.488 59.98% 
南方 男声 模型 73.09% 86.98% 1.544 57.48% 
南方 女声 模型 49.49% 67.52% 2.754 71.76% 
南方 混合 模型 68.40% 85.70% 1.721 56.40% 


上 述 实 验 结果 中 ， 字 体 加 黑 的 一 栏 表示 所 使 用 的 声学 模型 实验 结果 最 好 。 对 于 北方 口音 
男声 测试 语 料 ， 北 方 口音 男声 声学 模型 测试 的 实验 结果 最 好 。 且 北方 口音 声学 模型 (包括 北 
方 男声 、 北 方 女声 、 北 方 混合 声学 模型 ) 要 好 于 南方 口音 声学 模型 。 男 声 声学 模型 (包括 北 
方 男声 、 南 方 男声 声学 模型 ) 要 好 于 女声 声学 模型 。 以 上 实验 结果 说 明基 于 口音 和 性 别 的 声 
学 模型 选择 能 够 提高 语音 识别 性 能 以 及 候选 生成 质量 。 
4.3.2 有 监督 声学 模型 自 适 应 

在 本 实验 中 ， 我 们 将 上 一 实验 中 的 测试 语 料 分 成 两 半 。 一 半 用 于 识别 并 对 识别 的 结果 进 
行 修正 , 修正 后 的 文本 与 识别 语 料 一 起 对 北方 男声 声学 模型 作 自 适应 。 男 一 半分 别 用 自 适应 
前 的 北方 男声 声学 模型 和 自 适应 后 的 北方 男声 声学 模型 来 进行 测试 ,并 得 到 实验 结果 。 整 个 
实验 中 用 到 的 语言 模型 是 由 600 多 兆 的 文本 语 料 训 练 得 到 的 二 元 语言 模型 。 表 3 为 北方 男声 
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测试 语 料 的 实验 结果 。 
表 3 ”北方 男声 自 适应 前 后 效果 对 比 实验 


续 进 


互信 息 的 有 监督 声学 模型 自 适应 能 够 提高 语 
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在 目前 大 词汇 量 连 续 语 音 识 别 无 法 达到 实际 应 用 的 情况 下 , 交互 式 语音 识 别 是 对 语 


正确 率 ”10-best 履 盖 率 ”候选 平均 排名 候选 见 余 度 


自 适 应 前 77.52% 89.67% 1.523 62.89% 
目 适应 后 84.37% 95.41% 1.428 60.92% 
上 述 实验 结果 表明 ， 利 用 修正 后 的 信息 对 声学 模型 自 适 应 ， 采 用 自 适应 后 的 声学 模型 继 
行 识别 的 结果 要 好 于 自 适应 前 的 声学 模型 的 识别 结果 。 因 此 , 实验 结果 表明 采用 基于 交 


a 


日 


识别 的 性 能 ， 以 及 生成 候选 


的 质量 。 


间 识 


别 


上 县 和 交互 信息 ， 提 高 语音 识别 的 性 能 ， 以 及 候选 的 质量 。 交 互 式 语音 识别 下 一 步 工 作 有 : 


(1) 


语言 模型 自 适 应 对 提高 语音 


前 可 以 根据 将 


(2) 


) 


在 本 文中 ， 我 们 提 到 在 识别 开始 前 ， 根 据 
声学 模型 。 我国 
因此 ,为 了 提高 语音 识别 | 
训练 更 多 声学 模型 。 


了 一 种 新 的 应 月 此 ,在 交互 式 语音 识别 中 应 充分 利用 操作 员 对 系统 的 指导 信 


日 方式 。 因 


语言 模型 自 适 应 


识别 性 能 具有 较 大 的 作用 。 在 交互 式 语音 识别 中 ， 在 识别 之 
谈论 的 主题 搜集 与 主题 相关 的 语 料 ， 然 后 对 语言 模型 进行 事前 离线 自 适应 。 
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其 次 在 识别 过 程 中 ， 可 根据 操作 员 的 修正 信息 对 语言 模型 进行 在 线 自 适应 。 因 此 , 在 将 来 的 
工作 中 利用 指导 信息 和 交互 信息 对 语言 模型 进行 自 适应 具有 较 好 的 前 景 。 


训练 更 多 的 区 域 声 学 模型 


4 十 


音 和 性 别 事先 选择 与 待 识别 对 象 发 音 相 似 的 


地 域 广 ? 


各 地 域 的 发 音 不 尽 相 同 , 几乎 所 有 省 份 都 具有 不 同 口音 的 普通 话 。 
生 能 和 提高 候选 质量 ,在 将 来 的 工作 中 ， 可 以 根据 发 音 不 同 的 地 区 


总 之 ， 交互 式 语音 识别 是 对 目前 语音 识别 一 种 新 的 应 用 方式 ， 可 以 推广 到 其 他 一 些 应 用 
场景 下 。 
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